本文旨在解决语义细分中异常发现的问题。我们的主要观察是,语义分类在现有方法中起着关键作用,而错误分类的像素被容易被视为异常。这种现象经常出现并且很少讨论,这显着降低了异常发现的性能。为此,我们提出了一种新颖的蒸馏比较网络(Dicnet)。它包括一个教师分支,该教师分支是一种解除语义分类头的语义分割网络,以及通过分配蒸馏从教师分支蒸馏的学生分支。我们表明蒸馏保证了两个分支的语义特征在已知类别中保持一致性,而在未知课程中反映不一致。因此,我们利用两个分支之间的语义特征差异来发现异常。 DICNET在推理过程中放弃了语义分类头,因此显着减轻了语义分类错误引起的问题。对Streethazards数据集和BDD-Anomaly数据集进行了广泛的实验结果,以验证DicNet的卓越性能。特别是,DICNET在AUPR获得6.3%的改善,并且对血红病患者数据集的FPR95改善了5.2%,在BDD - 异常数据集上达到了4.2%的AUPR和FPR95的6.8%。代码可在https://github.com/zhouhuan-hust/dicnet上获得。
translated by 谷歌翻译
In recent years, using a self-supervised learning framework to learn the general characteristics of graphs has been considered a promising paradigm for graph representation learning. The core of self-supervised learning strategies for graph neural networks lies in constructing suitable positive sample selection strategies. However, existing GNNs typically aggregate information from neighboring nodes to update node representations, leading to an over-reliance on neighboring positive samples, i.e., homophilous samples; while ignoring long-range positive samples, i.e., positive samples that are far apart on the graph but structurally equivalent samples, a problem we call "neighbor bias." This neighbor bias can reduce the generalization performance of GNNs. In this paper, we argue that the generalization properties of GNNs should be determined by combining homogeneous samples and structurally equivalent samples, which we call the "GC combination hypothesis." Therefore, we propose a topological signal-driven self-supervised method. It uses a topological information-guided structural equivalence sampling strategy. First, we extract multiscale topological features using persistent homology. Then we compute the structural equivalence of node pairs based on their topological features. In particular, we design a topological loss function to pull in non-neighboring node pairs with high structural equivalence in the representation space to alleviate neighbor bias. Finally, we use the joint training mechanism to adjust the effect of structural equivalence on the model to fit datasets with different characteristics. We conducted experiments on the node classification task across seven graph datasets. The results show that the model performance can be effectively improved using a strategy of topological signal enhancement.
translated by 谷歌翻译
Fully supervised salient object detection (SOD) has made considerable progress based on expensive and time-consuming data with pixel-wise annotations. Recently, to relieve the labeling burden while maintaining performance, some scribble-based SOD methods have been proposed. However, learning precise boundary details from scribble annotations that lack edge information is still difficult. In this paper, we propose to learn precise boundaries from our designed synthetic images and labels without introducing any extra auxiliary data. The synthetic image creates boundary information by inserting synthetic concave regions that simulate the real concave regions of salient objects. Furthermore, we propose a novel self-consistent framework that consists of a global integral branch (GIB) and a boundary-aware branch (BAB) to train a saliency detector. GIB aims to identify integral salient objects, whose input is the original image. BAB aims to help predict accurate boundaries, whose input is the synthetic image. These two branches are connected through a self-consistent loss to guide the saliency detector to predict precise boundaries while identifying salient objects. Experimental results on five benchmarks demonstrate that our method outperforms the state-of-the-art weakly supervised SOD methods and further narrows the gap with the fully supervised methods.
translated by 谷歌翻译
基于3DCNN,ConvlSTM或光流的先前方法在视频显着对象检测(VSOD)方面取得了巨大成功。但是,它们仍然遭受高计算成本或产生的显着图质量较差的困扰。为了解决这些问题,我们设计了一个基于时空存储器(STM)网络,该网络从相邻帧中提取当前帧的有用时间信息作为VSOD的时间分支。此外,以前的方法仅考虑无时间关联的单帧预测。结果,模型可能无法充分关注时间信息。因此,我们最初将框架间的对象运动预测引入VSOD。我们的模型遵循标准编码器 - 编码器体系结构。在编码阶段,我们通过使用电流及其相邻帧的高级功能来生成高级的时间特征。这种方法比基于光流的方法更有效。在解码阶段,我们提出了一种有效的空间和时间分支融合策略。高级特征的语义信息用于融合低级特征中的对象细节,然后逐步获得时空特征以重建显着性图。此外,受图像显着对象检测(ISOD)中常用的边界监督的启发,我们设计了一种运动感知损失,用于预测对象边界运动,并同时对VSOD和对象运动预测执行多任务学习,这可以进一步促进模型以提取提取的模型时空特征准确并保持对象完整性。在几个数据集上进行的广泛实验证明了我们方法的有效性,并且可以在某些数据集上实现最新指标。所提出的模型不需要光流或其他预处理,并且在推理过程中可以达到近100 fps的速度。
translated by 谷歌翻译
确定复杂系统背后的因果关系在不同领域(例如决策,政策实施和管理建议)中起着重要作用。但是,关于时间事件序列数据的现有因果关系研究主要集中于单个因果发现,这是无法利用合并因果关系的。为了填补在时间事件序列数据上发现发现的合并原因,消除和募集原则被定义以平衡因果组合的有效性和可控性。我们还基于反应点过程来利用Granger因果关系算法来描述实体之间的燃料或抑制行为模式。此外,我们设计了“电动电路”的信息性和美学视觉隐喻,以编码汇总因果关系,以确保我们的因果关系可视化是非重叠和不相互作用的。各种排序策略和聚合布局也嵌入了我们基于平行的,定向和加权的超图中,以说明合并因果关系。我们开发的合并因果关系视觉分析系统可以帮助用户有效地探索合并的原因以及个人原因。这种交互式系统支持多样化的订购策略以及重点和上下文技术,以帮助用户获得不同级别的信息抽象。通过进行试验用户研究和事件序列数据的两项案例研究,进一步评估了系统的有用性和有效性。
translated by 谷歌翻译
动态图可视化吸引了研究人员的集中度,因为它代表了多个领域的实体之间的时变关系(例如,社交媒体分析,学术合作分析,团队运动分析)。集成视觉分析方法对于呈现,比较和审查动态图是结果的。即使开发了多年的动态图可视化,但是如何有效地可视化具有微妙变化的大规模和时间密集型动态图数据对研究人员仍然具有挑战性。为了为此类动态图数据提供有效的分析方法,我们提出了一种快照生成算法,该算法涉及人类中的人类,以帮助用户将动态图分为多粒性和分层快照,以进一步分析。此外,我们设计了视觉分析原型系统(DGSVI),以帮助用户有效访问动态图见解。 DGSVI集成了图形操作接口,以帮助用户在视觉上和交互式上生成快照。它配备了可视化动态图数据的层次快照的概述和详细信息。为了说明我们提出的此类动态图数据的建议方法的可用性和效率,我们在竞争中介绍了基于篮球运动员网络的两个案例研究。此外,我们进行了评估,并收到经验丰富的可视化专家的激动人心的反馈。
translated by 谷歌翻译
我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
扩散张量成像(DTI)已被用于研究神经退行性疾病对神经途径的影响,这可能导致这些疾病的更可靠和早期诊断,以及更好地了解它们如何影响大脑。我们介绍了一种基于标记为DTI光纤数据和相应统计数据的智能视觉分析系统,用于研究患者组。系统的AI增强界面通过组织和整体分析空间引导用户,包括统计特征空间,物理空间和不同组的患者的空间。我们使用自定义机器学习管道来帮助缩小此大型分析空间,然后通过一系列链接可视化务实拨动它。我们使用来自Parkinson进展标记倡议的研究数据库的实际数据进行多种案例研究。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译